import re
from urllib.request import urlopen
#1.获取网页内容
content = urlopen("https://www.dy2018.com/html/gndy/dyzz/index.html").read().decode('gbk')
# print(content)
# 网页源代码先搜索 div id 是唯一的数据，用于确定起始位置
# (r'<div class="co_area1">') 处理数据内的引号
#2.写正则
obj = re.compile(r'<div class="co_area1">.*?◎译　　名(?P<name>.*?)/.*?◎片　　名(?P<pian>.*?)◎年　　代(?P<year>.*?).*?</tr>',re.S)
# obj = re.compile(r'<div class="co_area1">.*?◎译　　名(?P<name>.*?)/.*?◎片　　名(?P<pian>.*?)◎年　　代(?P<year>.*?)</tr>',re.S)

# re.S控制正则中的. 可以匹配换行了
# obj = re.compile(r'<div class="co_area1">.*?◎译　　名(?P<name>.*?)/',re.S)
#3.匹配网页内容
it = obj.finditer(content)
for el in it:
    print("电影名称：",el.group("name"),"片名：",el.group("pian"),"年代：",el.group("year"))
    # print("片名：", el.group("pian"), "年代：", el.group("year"))

# a 标签不能作为程序的介绍